Modified First Order Regression, eine Simulationsstudie
نویسنده
چکیده
In diesem Bericht werden verschiedene Imputationsmechanismen f ur fehlende Kovariablen in einem linearen Regressionsmodell mit zwei Ko variablen untersucht Hierbei ist eine der Kovariablen vollst andig beobach tet die andere nur teilweise Die betrachteten Imputationsmechanismen sind Zero Order Regression ZOR First Order Regression FOR First Order Regression plus random noise FOR und Modi ed First Order Regression MFOR Keywords C Klassen Complete Case Sch atzung fehlende Werte First Order Regression Gewichtung Imputationsmechanismen Lineare Regressi on Simulationsstudie Zero Order Regression Einleitung In dieser Studie werden lineare Regressionsmodelle bei fehlenden Kovaria blen betrachtet Die Ergebnisse dieser Simulationsstudien sollen einen ersten Eindruck vom Verhalten der untersuchten mixed Sch atzer Sch atzer vermit teln dabei bestehende Probleme aufzeigen und m ogliche L osungsans atze auf Durchf uhrbarkeit hin uberpr ufen Die Simulationsprogramme sind in C unter Verwendung von Templateklassen zur linearen Algebra Fieger Heu mann Kastner und Watzka und Klassenbibliotheken zur linearen Re gresison Fieger erzeugt Daten In den Simulationsstudien des vorliegenden Berichts betrachten wir stets ei ne Datenmatrix X x x mit folgendender Struktur der Kovaria blenvektor x ist vollst andig beobachtet der Kovariablenvektor x ist nicht vollst andig beobachtet Die Aufteilung in ein complete Modell Index c und ein missing Modell Index ergibt X x c x c x x Die fehlenden Daten beschr anken sich also auf den Vektor x der vollst andig unbeobachtet ist F ur die vorliegende Studie wurden zwei Kovariablen gew ahlt da sich so die Korrelationsstruktur durch einen einzigen Parameter beschreiben und in Gra ken nach diesemabtragen l a t Die betrachteten Verfahren sind jedoch nicht auf diese Situation beschr ankt Modell Betrachten wir ein klassisches lineares Regressionsmodell y X mit oben beschriebener KovariablenmatrixX so erhalten wir nach Partitionierung das sogenannte Mixedmodell vgl Rao und Toutenburg yc y Xc X c Fehlendmechanismus Die Erzeugung von fehlenden Werten in der betrachteten Studie geschieht stets derart da die Werte missing completely at random MCAR sind d h da das Fehlen eines Kovaraiblenwertes nicht von den Daten abh angt vgl Little und Rubin Untersuchte Sch atzer Im folgenden werden verschiedene Ans atze verglichen die das Fehlen von Ko variablenwerten bei der Sch atzung der Regressionsparameter ber ucksichtigen Zugrundelegend ist stets die Aufteilung des Modells in das Mixedmodell Complete Case Sch atzer Die einfachste M oglichkeit die fehlenden Daten zu behandeln ist die com plete case Methode F alle die nicht vollst andig beobachtet sind werden aus geschlo en Das betrachtete Modell reduziert sich damit zu yc Xc c Bei allen weiteren Sch atzern wird das Mixed Modell vollst andig verwen det Die nicht beobachteten Werte in x m ussen dazu durch gesch atzte Werte ersetzt werden um die so vervollst andigte Datenmatrix Xc XR im mixed Sch atzer X cXc X RXR X cyc X Ry zu verwenden ZOR Sch atzer Ersetze fehlende Werte in der KovariablenmatrixX durch das Spaltenmittel werte xi das aus den Daten in Xc bestimmt wird Die Zero Order Regression Methode wird deshalb auch unconditional mean imputation genannt FOR Sch atzer Verwenden wir die Korrelationsstruktur der Kovariablen X so k onnen wir einen fehlenden Kovariablenwert xij durch eine Regression auf die restlichen Kovariablen prognostizieren und als Ersatzwert verwenden Die Regressions koe zienten dieser Hilfsregressionen werden aus den vollst andigen F allen gesch atzt Die First Order Regression Methode wird deshalb auch als condi tional mean imputation bezeichnet FORplus Sch atzer Bei der First Order Regression wird durch zu glatte Ersetzung die Resi dualvarianz untersch atzt Die Einf uhrung eines zus atzlichen Fehlerterms soll diesen E ekt ausgleichen vgl Simono MFOR Sch atzer Wie bei der First Order Regression wird die Korrelationsstruktur der Da ten verwendet um fehlende Beobachtungen zu ersetzen Hier wird jedoch zus atzlich der Response y in den Hilfsregressionen verwendet Wahrer Sch atzer In den Simulationsstudien sind die fehlenden Daten k unstlich aus dem Da tensatz entfernt worden Dadurch sind ihre Werte bekannt und es kann als Referenz der mixed Sch atzer berechnet werden der sich ergibt wenn die wahren Werte wieder eingesetzt werden also quasi ein perfektes Imputati onsverfahren betrachtet wird Gewichtete Sch atzer In Little werden Gewichte f ur die unvollst andig beobachteten F alle be trachtet die dazu dienen sollen die erh ohte Residualvarianz auszugleichen Diese Gewichte werden im gewichteten KQ Sch atzer verwendet WLS esti mation um den Ein u der unvollst andig beobachteten F alle zu reduzieren Betrachtet werden ein einfaches Gewicht w yy s yy s y s und ein verbessertes Gewicht w y s m n y s y s m n Struktur der Simulationsstudie Die Struktur der hier pr asentierten Simulationen ist wie folgt vergleiche auch Anhang A Erzeugung einer Datenmatrix X BB x x x x xn xn CCA Die Zeilen von X werden als unabh angig und identisch verteilt gem a N X erzeugt Dabei ist und X gesetzt Hinzuf ugen einer Einsspalte Intercept ergibt schlie lich die Daten matrix X X Dieser Schritt wird f ur bestimmte Werte von hier Schrittweite wiederholt Aus der DatenmatrixX dem festgelegten Parametervektor und einem Fehlervektor N wird der Responsevektor y gem a y X erzeugt Dieser Schritt wird mal wiederholt E wurde hierbei als bzw ! gew ahlt wurde gesetzt Fehlende Werte kommen nur in der Datenmatrix X vor sie fehlen hier nur in der zu geh origen Spalte Die Wahrscheinlichkeit P Ri also die Wahrscheinlichkeit in einer gegebenen Zeile von X einen fehlenden Wert zu erhalten wurde mit bzw festgesetzt gleich f ur alle i und unabh angig von X Es liegt also missing completely at random MCAR vor Ergebnisse Die im folgenden dargestellten Ergebnisse stellen mittlere Sch atzwerte dar die sich nach Aggregation uber die verschiedenen verwendeten X Matrizen ergeben Es wurden die oben vorgestellten Sch atzer verwendet die jeweils ungewichtet bzw in der gewichteten Version bestimmt wurden Die oben an gegebenen Gewichte wurden zum Vergleich auch f ur die nichtstochastischen Ersetzungen FOR MFOR verwendet Bei FOR ist keine Gewichtung n otig da dies bereits durch die zus atzlich eingef uhrte Streuung ber ucksichtigt wird in den Gra ken werden bedingt durch die Struktur des Simulations programmes auch hier die gewichteten Ergebnisse angegeben Probleme Es ergeben sich zwei Probleme f ur den Sch atzer MFOR die Varianz wird untersch atzt die Sch atzung von ist verzerrt L osungsans atze Als m ogliche Verbesserungen von MFOR k onnten folgende Ans atze dienen die in einer sp ateren Studie untersucht werden sollen Varianzkorrektur durch Imputation mit zus atzlichem Fehlerterm exi stiert f ur FOR dort FORplus" nicht f ur Bias Biaskorrektur von MFOR Eine Sch atzung des Bias von MFOR k onnte mittels Bootstrapverfahren ermittelt werden vgl Abbildung Unknown Probability Model Observed Data P x x xn y y Parameter of interest Estimate of P s x BiasP w w Estimated Probability Model Bootstrap sample P x x x n y y Estimated parameter Bootstrap replicate of P s x Bias P Abbildung Allgemeines Diagramm der Biassch atzung Bias P ist ein allgemeines Bias Ma und mu ublicherweise mit Monte Carlo Metho den approximiert werden Abbildung ist aus Efron und Tibshirani entnommen
منابع مشابه
Zum Einsatz von RFID in der Filiallogistik eines Einzelhändlers: Ergebnisse einer Simulationsstudie
Vor dem Hintergrund des bis heute bestehenden Problems der unzureichenden Regalverfügbarkeit im Handel eröffnet RFID durch eine automatische Erfassung von Warenbewegungen in der Filiale die Möglichkeit, den Prozess der Regalnachbefüllung neu zu gestalten. Dieser Beitrag vergleicht im Rahmen einer Simulationsstudie den herkömmlichen Prozess der Nachbefüllung mit manueller Bestandskontrolle mit e...
متن کاملAdaptive Nonparametric Tests for the Generalized Behrens-Fisher Problem
Some adaptive test procedures are developed for the generalized Behrens-Fisher problem. The one having a deterministic approach is based on calculating a measure of symmetry from each sample and using them as a basis for choosing between the modified Wilcoxon-Mann-Whitney test (Fligner and Policello, 1981) and the modified Mood’s median test (Fligner and Rust, 1982). The other one is a probabil...
متن کاملAuto-Tuning von PID-Mehrgrößenreglern mit Hilfe von Iterative Feedback Tuning
A new auto-tuning approach for centralized MIMO PID controllers and unknown process models is presented. Classical multivariable PID controller tuning methods are combined with iterative feedback tuning (IFT) to develop an auto-tuning method with a bounded number of tuning parameters. The method is demonstrated and validated with a steam generator example. Very good simulation results are obtai...
متن کاملNetzwerkeffizienz stabiler Overlay-Streaming-Topologien
Zusammenfassung. Bei der Konstruktion von Overlay-Topologien für multimediale Live-Streaming-Anwendungen sind zwei Eigenschaften von besonderer Bedeutung: die Netzwerkeffizienz der Topologie in Bezug auf die Paketverteilung und die Stabilität der Topologie sowohl im Fall vorsätzlicher Sabotageangriffe als auch bei zufälligen Knotenausfällen. Während ein Großteil der existierenden Ansätze haupts...
متن کاملPositionsbasiertes Routing für die Kommunikation zwischen Fahrzeugen (Position-Based Routing for Inter-Vehicle Communication)
Die Möglichkeit, mit Hilfe von drahtloser Kommunikation Nachrichten zwischen Fahrzeugen auszutauschen, wird in naher Zukunft das Autofahren sicherer und komfortabler gestalten. Insbesondere das Weiterleiten dieser Nachrichten von einem Sender zu einem oder mehreren Empfängern stellt hierbei eine interessante Herausforderung dar. In diesem Artikel wird ein positionsbasiertes Ad-Hoc-Routing-Verfa...
متن کامل